比賽打卡記錄:
初步的思路是集成多個 pretrained BERT-based 訓練他們來回答 Multiple-Question,不過這個比賽的難點在,官方提供的訓練資料只有 200 個左右,所以要如何創造更多元豐富的數據集來給模型訓練,會是一個需要克服的問題。不過考慮到測試問題的多樣性和難度,甚至很多問題讓人去判斷,都難以確認最正確的答案應該是哪一個,所以另外一個比較多人討論的是 retrieved-augment 的做法。也就是說給定 question,首先先去檢索 Wiki 上和問題相關的知識片段,將 question 與這些相關知識片段串接在一起,提供給模型當作 Input 預測最後的答案,可以大幅增加模型的正確性。目前社群已經有很多人貢獻高品質的資料集,如下:來源一、來源二